Biến công cụ là gì? Các bài nghiên cứu khoa học liên quan
Biến công cụ là biến Z liên kết mạnh với biến giải thích X nhưng độc lập với sai số u, dùng để ước lượng quan hệ nhân quả khi X nội sinh. IV khắc phục thiên lệch do biến bỏ sót, sai số đo hoặc quan hệ ngược, thường ước lượng bằng 2SLS để thu được kết quả nhất quán.
Khái niệm biến công cụ
Biến công cụ (Instrumental Variable – IV) là biến Z được sử dụng để ước lượng mối quan hệ nhân quả giữa biến giải thích X và biến kết quả Y khi X có tính nội sinh. Tính nội sinh có thể phát sinh do biến bỏ sót (omitted variable bias), sai số đo lường (measurement error) hoặc quan hệ nhân quả ngược (reverse causality). Trong trường hợp này, hồi quy OLS sẽ cho kết quả lệch lạc và không nhất quán, do đó cần biến công cụ thỏa mãn hai điều kiện đặc biệt.
Một biến công cụ lý tưởng không trực tiếp ảnh hưởng đến biến kết quả Y ngoài qua biến giải thích X, và không đồng biến với sai số u trong mô hình Y = βX + u. Khi đó, biến công cụ có thể tách tín hiệu “nguyên nhân” (causal effect) của X lên Y, khắc phục thiên lệch nội sinh.
Ví dụ kinh điển từ kinh tế học lao động: để ước lượng tác động của giáo dục (X) lên thu nhập (Y), ta có thể dùng khoảng cách từ nơi cư trú đến trường đại học (Z) làm biến công cụ. Khoảng cách này ảnh hưởng đến quyết định học tiếp (relevance) nhưng không tác động trực tiếp đến thu nhập ngoài thông qua mức độ học vấn (exogeneity).
Điều kiện liên kết và độc lập
Để biến Z trở thành công cụ hợp lệ, nó phải thỏa mãn hai điều kiện cơ bản:
- Relevance: Biến công cụ phải liên kết chặt với biến giải thích, tức là Cov(Z,X) ≠ 0. Trong thực tiễn, ước lượng mối quan hệ X lên Z trong first stage và kiểm định F-statistic (thường F > 10) cho thấy biến công cụ đủ mạnh.
- Exogeneity: Biến công cụ phải độc lập với sai số u trong mô hình gốc, tức Cov(Z,u) = 0. Điều này đảm bảo Z không bị ảnh hưởng bởi các yếu tố ẩn tạo ra nội sinh.
Trong mô hình Y = βX + u và first stage X = πZ + v, ta kiểm tra:
Khi cả hai điều kiện này cùng thỏa mãn, ước lượng IV sẽ nhất quán, không bị lệch lạc do nội sinh. Nếu điều kiện relevance không đảm bảo, biến công cụ yếu (weak instrument) sẽ dẫn đến ước lượng 2SLS có phân phối lệch và không tin cậy.
Mô hình hồi quy hai giai đoạn (2SLS)
Phương pháp Two-Stage Least Squares (2SLS) là kỹ thuật điển hình để ước lượng mô hình với biến công cụ. Quá trình gồm hai giai đoạn:
- Giai đoạn 1 (First Stage): Ước lượng biến giải thích nội sinh X trên biến công cụ Z và các biến ngoại sinh W khác: thu được giá trị ước lượng \(\hat X\).
- Giai đoạn 2 (Second Stage): Thay giá trị \(\hat X\) vào mô hình gốc và ước lượng β bằng OLS:
Phương pháp này tách phần biến nội sinh của X do Z chi phối, qua đó loại bỏ tương quan giữa X và sai số u. Ước lượng β1 thu được là ước lượng nhân quả của X lên Y trong điều kiện biến công cụ hợp lệ.
Ưu điểm của 2SLS là đơn giản, dễ triển khai bằng phần mềm kinh tế lượng thông dụng như Stata hay R. Hạn chế là chỉ áp dụng tốt khi số công cụ bằng số biến nội sinh (just-identified) hoặc lớn hơn (over-identified), và biến công cụ đủ mạnh.
Ước lượng bằng GMM
Generalized Method of Moments (GMM) mở rộng khung IV khi có nhiều biến công cụ và quan hệ phức tạp. Điều kiện moment tổng quát cho mô hình Y = Xβ + u với công cụ Z là:
GMM ước lượng β bằng cách giải bài toán tối ưu:
\hat\beta = \arg\min_\beta \, \bar g(\beta)' \, W \, \bar g(\beta), \end{script>